#import "@preview/touying:0.6.1": *
#import themes.aqua: *
#import "@preview/pinit:0.2.2": *

#show: aqua-theme.with(
  aspect-ratio: "16-9",
  config-info(
    title: [概率论],
    subtitle: [Subtitle],
    author: [数学主义],
    date: datetime.today(),
    institution: [Institution],
  ),
)
#set text(font: ("Calibri", "Microsoft YaHei"), weight: "regular", size: 25pt)

#title-slide()

#outline-slide()

= 回顾
== 多维随机变量
<多维随机变量>
如果 $X_1 \( omega \) \, X_2 \( omega \) \, dots.h \, X_n \( omega \)$
是定义在同一样本空间 $Omega$ 上的 $n$ 个随机变量，则称
$ upright(bold(X)) \( omega \) = \( X_1 \( omega \) \, X_2 \( omega \) \, dots.h \, X_n \( omega \) \) $
为 #strong[n维随机变量] 或 #strong[随机向量]。

- 类比：一维是一个数，二维是一对数，三维是三元组……

- 样本点 $omega$ 对应一个"结果"，它被映射成一个向量。

== 联合分布函数
<联合分布函数>
设 $\( X \, Y \)$ 是二维随机变量。对任意实数 $x \, y$，称
$ F \( x \, y \) = P \( X lt.eq x \, Y lt.eq y \) $ 为 $\( X \, Y \)$ 的
#strong[联合分布函数]。

- 这是事件 ${ X lt.eq x }$ 与 ${ Y lt.eq y }$ 同时发生的概率；

- 类比一维：$F \( x \) = P \( X lt.eq x \)$；

- 可以类比"地图上某区域的人口占比"、"铁板上某区域的重量占比"。

== 联合分布函数的性质
<联合分布函数的性质>
#strong[把 $F \( x \, y \)$ 看作一张"地形图"：]

- 每一点记录海拔高度，表示累积概率；

- 地图左下低，右上高，所以往右往上都是上升（单调性）；

- 最低点海拔为 $0$，最高点海拔为 $1$ （有界性）；

- 下来容易上去难（右连续）；

- 往右上方向走必定上升（非负性）。

== 联合密度函数
<联合密度函数>
如果存在二元非负函数 $p \( x \, y \)$，使得
$ F \( x \, y \) = integral_(- oo)^x integral_(- oo)^y p \( u \, v \) thin d v thin d u \, $
则称 $\( X \, Y \)$ 为 #strong[二维连续随机变量]，称 $p \( x \, y \)$
为它的 #strong[联合概率密度函数]。

- 类比一维：$F \( x \) = integral_(- oo)^x f \( t \) thin d t$；

- 密度函数 $p \( x \, y \)$ 描述"概率密度"在平面上的分布；

---

如果存在二元非负函数 $p \( x \, y \)$，使得
$ F \( x \, y \) = integral_(- oo)^x integral_(- oo)^y p \( u \, v \) thin d v thin d u \, $
则称 $\( X \, Y \)$ 为 #strong[二维连续随机变量]，称 $p \( x \, y \)$
为它的 #strong[联合概率密度函数]。

- 可以想象为"热力图"：越亮的地方，$\( X \, Y \)$ 越可能出现在那里。

- 可以类比"地图上的人口密度"、"不均匀铁板的密度分布"。

---

若 $G$ 是平面上的区域，则
$ P \( \( X \, Y \) in G \) = integral.double_G p \( x \, y \) thin d x thin d y . $

- 类比一维：概率 = 积分；

- 在二维中，概率 = "密度函数在区域 $G$ 上的二重积分"；

- 注意："直线的面积为零" → 边界是否包含不影响结果。

== 联合分布列
<联合分布列>
设 $\( X \, Y \)$ 是二维离散随机变量，令
$ p_(i j) = P \( X = x_i \, Y = y_j \) \, quad i \, j = 1 \, 2 \, dots.h $
称 ${ p_(i j) }$ 为 $\( X \, Y \)$ 的 #strong[联合分布列]。

- 这表示：#strong[同时]发生事件 $X = x_i$ 与事件 $Y = y_j$ 的概率；

- 可以用表格形式表示，称为 #strong[联合分布表]。

== 边际分布列（边缘分布律）
<边际分布列边缘分布律>
我们可以从联合分布中提取单个变量的信息。

在联合分布列 ${ p_(i j) }$ 中：
$ P \( X = x_i \) & = sum_(j = 1)^oo P \( X = x_i \, Y = y_j \) = sum_(j = 1)^oo p_(i j)\
P \( Y = y_j \) & = sum_(i = 1)^oo P \( X = x_i \, Y = y_j \) = sum_(i = 1)^oo p_(i j) $
分别称为 $X$ 和 $Y$ 的 #strong[边际分布列]。

= 边际分布
== 为什么有了联合分布还要求边际分布？
<为什么有了联合分布还要求边际分布>
- 部分原因：#strong[为了判断两个随机变量是否独立。]

- 事件的独立性：$P \( A sect B \) = P \( A \) P \( B \)$。

- 随机变量 $X$ 与 $Y$ 独立，当且仅当：
  $ upright("联合分布") = upright("边际分布") times upright("边际分布") $

- #strong[通常，求边际分布不是目的，而是判断独立性的必要步骤。]

== 边际分布函数的定义与推导
<边际分布函数的定义与推导>
要得到 $X$ 的分布，我们需要"忽略"$Y$ 的影响。换句话说，无论 $Y$
取什么值（只要在实数范围内），我们都接受。这相当于对所有可能的 $Y$
值求并集：
$ { X lt.eq x } = union.big_(y in bb(R)) { X lt.eq x \, thin Y lt.eq y } . $

但由于概率测度的连续性，更方便的做法是让 $y arrow.r + oo$，因为事件
${ Y lt.eq y }$ 随着 $y$ 增大而单调递增，并趋于整个样本空间（即
${ Y < oo }$，这是一个概率为 1 的必然事件）。


$ P \( X lt.eq x \) &= P \( X lt.eq x \, thin Y < oo \) \
  &= lim_(y arrow.r + oo) P \( X lt.eq x \, thin Y lt.eq y \) = lim_(y arrow.r + oo) F \( x \, y \) . $

于是我们定义$X$ 的#strong[边际分布函数]为：
$ F_X \( x \) := lim_(y arrow.r + oo) F \( x \, y \) = F \( x \, + oo \) . $

同理，
$ F_Y \( y \) := lim_(x arrow.r + oo) F \( x \, y \) = F \( + oo \, y \) . $

#strong[注]：这里的 $F \( x \, + oo \)$ 是一种简写，严格来说应理解为极限
$lim_(y arrow.r + oo) F \( x \, y \)$。

---

设联合分布函数为：
$ F \( x \, y \) = cases(delim: "{", 1 - e^(- x) - e^(- y) + e^(- x - y - lambda x y) \, & x > 0 \, y > 0, 0 \, & upright("其他")) $
其中 $lambda > 0$，我们来求边际分布：

$ F_X \( x \) & = F \( x \, oo \) = lim_(y arrow.r oo) F \( x \, y \)\
 & = 1 - e^(- x) - lim_(y arrow.r oo) e^(- y) + lim_(y arrow.r oo) e^(- x - y - lambda x y)\
 & = 1 - e^(- x) quad \( upright("因为后两项趋于 ") 0 \) $

所以：
$ F_X \( x \) = cases(delim: "{", 1 - e^(- x) \, & x > 0, 0 \, & x lt.eq 0) $
---
类似地，
$ F_Y \( y \) = cases(delim: "{", 1 - e^(- y) \, & y > 0, 0 \, & y lt.eq 0) $

#strong[结论：]

- $X$ 和 $Y$ 的边际分布都是一维指数分布，与参数 $lambda$ 无关！

- 不同的 $lambda$ 对应不同的联合分布，但边际分布相同！

- 联合分布不仅包含每个变量的分布，还包含它们之间的 #strong[依赖关系]。

- 所以：#strong[边际分布不能唯一确定联合分布]。

== 从联合密度函数求边际密度函数
<从联合密度函数求边际密度函数>
如果 $\( X \, Y \)$ 是连续型随机变量，且有联合密度函数
$p \( x \, y \)$，那么我们可以对另一个变量积分，得到边际密度：

$ p_X \( x \) & = integral_(- oo)^oo p \( x \, y \) thin d y\
p_Y \( y \) & = integral_(- oo)^oo p \( x \, y \) thin d x $

#strong[直观理解：] 把 $p \( x \, y \)$
看成一个"三维地形图"，$p_X \( x \)$ 就是沿着 $y$
方向"切片"后对高度积分的结果，相当于"压扁"了 $y$ 维度。

== 二元正态分布的边际分布
<二元正态分布的边际分布>
设
$\( X \, Y \) tilde.op N \( mu_1 \, mu_2 \, sigma_1^2 \, sigma_2^2 \, rho \)$，其联合密度为：
$ p \( x \, y \) &= frac(1, 2 pi sigma_1 sigma_2 sqrt(1 - rho^2)) \
 & times exp {- frac(1, 2 \( 1 - rho^2 \)) [frac(\( x - mu_1 \)^2, sigma_1^2) - 2 rho frac(\( x - mu_1 \) \( y - mu_2 \), sigma_1 sigma_2) + frac(\( y - mu_2 \)^2, sigma_2^2)]} $

我们想求 $X$ 的边际密度 $p_X \( x \)$，就对 $y$ 积分：
$ p_X \( x \) = integral_(- oo)^oo p \( x \, y \) thin d y $

先处理指数部分，改写：
$ & - frac(1, 2 \( 1 - rho^2 \)) [frac(\( x - mu_1 \)^2, sigma_1^2) - 2 rho frac(\( x - mu_1 \) \( y - mu_2 \), sigma_1 sigma_2) + frac(\( y - mu_2 \)^2, sigma_2^2)] \ 
&= - 1 / 2 (underbrace(rho frac(x - mu_1, sigma_1 sqrt(1 - rho^2)) - frac(y - mu_2, sigma_2 sqrt(1 - rho^2)), = t))^2 - frac(\( x - mu_1 \)^2, 2 sigma_1^2) $
---
于是：
$ p_X \( x \) &= frac(1, 2 pi sigma_1 sigma_2 sqrt(1 - rho^2)) \ & times exp {- frac(\( x - mu_1 \)^2, 2 sigma_1^2)} dot.op sigma_2 sqrt(1 - rho^2) underbrace( integral_(- oo)^oo exp {- t^2 / 2} d t, = sqrt(2 pi)) $
---
最终得到：
$ p_X \( x \) = frac(1, sqrt(2 pi) sigma_1) exp {- frac(\( x - mu_1 \)^2, 2 sigma_1^2)} $

这正是正态分布 $N \( mu_1 \, sigma_1^2 \)$ 的密度函数！

---

- 二元正态分布的边际分布是正态分布。

- 边际分布中 #strong[不含相关系数] $rho$！

- 所以：即使 $rho = 0.1$ 或 $rho = 0.2$，只要 $mu_1 \, sigma_1^2$
  相同，$X$ 的边际分布就一样。

- 这说明：#strong[相同的边际分布可以来自不同的联合分布]。

---

== 小结
<小结>
+ 边际分布是从联合分布中"忽略"另一个变量得到的。
+ 方法：
  - 若有联合分布函数 $F \( x \, y \)$，则
    $F_X \( x \) = F \( x \, oo \)$
  - 若有联合密度 $p \( x \, y \)$，则
    $p_X \( x \) = integral p \( x \, y \) thin d y$
+ 联合分布包含了变量之间的关系，而边际分布只反映单个变量的"边缘"行为。
  - 例如，对于抖音视频，点赞数（$X$）和评论数（$Y$）可能都有类似的边际分布（比如都服从某种偏态分布），但它们的联合分布才能反映"爆款视频"是否同时高赞高评------这就是依赖关系。

= 独立性
---
#strong[城市公共数据中的两个随机变量：]

- $X$：某日冰淇淋的销量（单位：千份）

- $Y$：同日发生的溺水事故数量（单位：起）

- #strong[冰淇淋销量越高，溺水事故也越多]。

从统计角度看，$X$ 与 $Y$ 呈现出明显的正相关性，它们并不#strong[独立]。

---

但这是否意味着 $X$ 和 $Y$ 之间存在因果关系？答案是否定的。

真正的原因在于存在一个#strong[隐藏的混杂变量]（confounder）：

- $Z$：当日气温（或季节）

当气温升高（$Z$ 较大）时：

- 人们更倾向于购买冰淇淋 $arrow.r.double X$ 增大；

- 更多人戏水 $arrow.r.double Y$ 增大。

---

$X$ 与 $Y$ 的"虚假关联"实际上是通过共同依赖于 $Z$ 而产生的。
若在固定气温条件下（即给定 $Z = z$），再考察 $X$ 与 $Y$
的关系，我们会发现二者几乎不再相关，此时称 $X$ 与 $Y$ 在给定 $Z$
下#strong[条件独立]。这个例子说明：

- 相关性 #emph[不等于] 因果性；
- 两个变量看似"相互干涉"，可能只是被第三个变量悄然操控；
- 判断独立性不能仅凭直觉，而需结合数据结构与潜在变量进行严谨分析。

这也正是概率论中引入#strong[独立性]与#strong[条件独立性]概念的重要动机。

== 从"事件独立"到"随机变量独立"
<从事件独立到随机变量独立>
在第一章我们学过，两个事件 $A$ 和 $B$ 独立，当且仅当：
$ P \( A sect B \) = P \( A \) P \( B \) $

这个思想可以推广到 #strong[随机变量] 上：设 $\( X \, Y \)$
是二维随机变量，若对任意实数 $a \, b \, c \, d$，都有：
$ P \( a < X < b \, med c < Y < d \) = P \( a < X < b \) dot.op P \( c < Y < d \) $
则称 $X$ 与 $Y$ #strong[相互独立]。

#strong[解释：]知道 $X$ 在某个范围内取值，不会改变你对 $Y$ 取值的预测。

== 判断独立性的三种方法
<判断独立性的三种方法>
+ 联合分布函数满足： $ F \( x \, y \) = F_X \( x \) F_Y \( y \) $

+ 离散型：联合分布列对任意 $i \, j$ 满足 $ p_(i j) = p_i p_j $

+ 连续型：联合密度函数满足 $ p \( x \, y \) = p_X \( x \) p_Y \( y \) $

只要能写成"联合 = 边际 × 边际"的形式，就独立！

== 例题：离散
<例题离散>
设 $\( X \, Y \)$ 的联合分布列为：

#figure(
  align(center)[#table(
    columns: 3,
    align: (auto,auto,auto,),
    table.header([], [Y = 0], [Y = 1],),
    table.hline(),
    [X = 0], [0.3], [0.4],
    [X = 1], [0.2], [0.1],
  )]
  , kind: table
  )

问：$X$ 与 $Y$ 是否独立？

---

#strong[解：] 先求边际分布：

#figure(
  align(center)[#table(
    columns: 3,
    align: (auto,auto,auto,),
    table.header([X], [0], [1],),
    table.hline(),
    [P], [0.7], [0.3],
  )]
  , kind: table
  )

#figure(
  align(center)[#table(
    columns: 3,
    align: (auto,auto,auto,),
    table.header([Y], [0], [1],),
    table.hline(),
    [P], [0.5], [0.5],
  )]
  , kind: table
  )

计算：
$ P \( X = 0 \, Y = 0 \) = 0.3 \, quad P \( X = 0 \) P \( Y = 0 \) = 0.7 times 0.5 = 0.35 $

因为 $0.3 eq.not 0.35$，所以#strong[不独立！]

---

#figure(
  align(center)[#table(
    columns: 3,
    align: (auto,auto,auto,),
    table.header([], [Y = 0], [Y = 1],),
    table.hline(),
    [X = 0], [0.3], [0.4],
    [X = 1], [0.2], [0.1],
  )]
  , kind: table
  )

#strong[直观解释：]如果你知道 $X = 0$，那么 $Y = 0$ 的概率是
$0.3 \/ 0.7 approx 43 %$，而总体上 $P \( Y = 0 \) = 50 %$。说明 $X$
的值会影响 $Y$ 的概率，所以它们有关联。

== 例题：连续
<例题连续>
设联合密度为：
$ p \( x \, y \) = cases(delim: "{", 6 x y^2 \, & 0 < x < 1 \, med 0 < y < 1, 0 \, & upright("其他")) $

判断 $X$ 与 $Y$ 是否独立。
---
#strong[解：] 先求边际密度。

$ p_X \( x \) = integral_0^1 6 x y^2 thin d y = 6 x integral_0^1 y^2 thin d y = 6 x dot.op 1 / 3 = 2 x \, quad 0 < x < 1 $

$ p_Y \( y \) = integral_0^1 6 x y^2 thin d x = 6 y^2 integral_0^1 x thin d x = 6 y^2 dot.op 1 / 2 = 3 y^2 \, quad 0 < y < 1 $

现在检查是否满足：
$ p \( x \, y \) = p_X \( x \) p_Y \( y \) = \( 2 x \) \( 3 y^2 \) = 6 x y^2 $

#strong[成立！]所以 $X$ 与 $Y$ #strong[独立]。

#strong[原因：] $p \( x \, y \)$ 能分离成 $g \( x \) dot.op h \( y \)$
的形式。

---

== 可分离性蕴含独立性
<可分离性蕴含独立性>
假设联合密度函数可写为 $ p \( x \, y \) = g \( x \) h \( y \) \, $ 其中
$g \( x \) gt.eq 0$，$h \( y \) gt.eq 0$，那么边际分布是

$ p_X \( x \) & = integral_(- oo)^oo p \( x \, y \) thin d y = integral_(- oo)^oo g \( x \) h \( y \) thin d y \ &= g \( x \) integral_(- oo)^oo h \( y \) thin d y = g \( x \) dot.op C_h , $

$ p_Y \( y \) & = integral_(- oo)^oo p \( x \, y \) thin d x = integral_(- oo)^oo g \( x \) h \( y \) thin d x \ &= h \( y \) integral_(- oo)^oo g \( x \) thin d x = h \( y \) dot.op C_g \, $
这里我们记
$ C_g = integral_(- oo)^oo g \( x \) thin d x \, #h(2em) C_h = integral_(- oo)^oo h \( y \) thin d y . $
---
利用归一化条件：由于 $p \( x \, y \)$ 是概率密度函数，必须满足
$ integral.double_(bb(R)^2) p \( x \, y \) thin d x thin d y = 1 . $
代入可分离形式得
$ integral.double g \( x \) h \( y \) thin d x thin d y = (integral g \( x \) thin d x) (integral h \( y \) thin d y) = C_g C_h = 1 . $
---
计算边际分布的乘积可得：
$ p_X \( x \) p_Y \( y \) &= ( g \( x \) C_h ) dot.op ( h \( y \) C_g ) \ &= g \( x \) h \( y \) dot.op \( C_g C_h \) = g \( x \) h \( y \) dot.op 1 = p \( x \, y \) . $

因此， $ p \( x \, y \) = p_X \( x \) p_Y \( y \) \, $ 即 $X$ 与 $Y$
相互独立。

---

注意：

- 函数 $g \( x \)$ 和 $h \( y \)$ 必须分别仅依赖于 $x$ 和
  $y$，不能含有交叉项（如 $g \( x \) h \( x \, y \)$ 不适用）。

- 该结论在连续和离散情形下均成立（只需将积分换为求和）。

== 随堂练习
<随堂练习>
设联合密度为：
$ p \( x \, y \) = cases(delim: "{", 6 x y^2 \, & 0 lt.eq y lt.eq x lt.eq 1, 0 \, & upright("其他")) $

判断 $X$ 与 $Y$ 是否独立。

== 一些小结论
<一些小结论>
- 若
  $\( X \, Y \) tilde.op N \( mu_1 \, mu_2 \, sigma_1^2 \, sigma_2^2 \, rho \)$，则
  $X$ 与 $Y$ 独立 $arrow.l.r.double rho = 0$

- 对于二维均匀分布，

  - 若定义在矩形区域上，则 $X$ 与 $Y$ 独立；

  - 若定义在单位圆上，则 $X$ 与 $Y$ 不独立（因
    $x^2 + y^2 lt.eq 1$，两者有关）。

- 二元正态的边际分布是正态分布。
---

- 设 $X$ 与 $Y$ 是两个相互独立的随机变量，那么对任意（合理的）函数 $g$
  和 $h$，只要 $g \( X \)$ 与 $h \( Y \)$ 仍有定义，它们也相互独立。

  - 直观解释：独立性意味着，$X$ 的取值不提供关于 $Y$
    的任何信息，反之亦然。 由于 $g \( X \)$ 仅由 $X$ 决定，$h \( Y \)$
    仅由 $Y$ 决定，二者之间仍无信息关联，因此独立性得以保留。

== 如何快速判断独立性？
<如何快速判断独立性>
+ 看支撑集：如果 $x$ 和 $y$ 的取值范围互相限制（如
  $y lt.eq x$），一般不独立。

+ 然后看表达式：能否写成 $g \( x \) h \( y \)$？能 → 独立；不能 →
  不一定。

+ 看分布类型：

  - 二维正态：$rho = 0$ ⇔ 独立

  - 矩形上的均匀分布 ⇒ 独立

  - 圆盘上的均匀分布 ⇒ 不独立

